from pprint import pprint

import fitz

# 指定输入文件的路径为桌面上的一个PDF文件
# 指定输出文件夹的路径为桌面上的一个文件夹
input_file = f"./化学.pdf"
# input_file = f"./hello.pdf"
source_pdf = fitz.open(input_file)
page = source_pdf[0]

# source_pdf.save('hello2.html')
# with open('cheat.html', 'w') as f:
#     f.write(page.get_text('html'))

x = page.get_text('dict')
pprint(x)